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Abstract 

We consider a generalization of the criterion minimized by the K-means algorithm, where a neighborhood structure 
is used in the calculus of the variance. Such tool is used, for example with Kohonen maps, to measure the quality 
of the quantification preserving the neighborhood relationships. If we assume that the parameter vector is in 
a compact Euclidean space and all it components are separated by a minimal distance, we show the strong 
consistency of the set of parameters almost realizing the minimum of the empirical extended variance. To cite this 
article: 

Resume 

On considere une generalisation du critere minimise par I'algorithme des K-moyennes [K-means], oil une structure 
de voisinage est introduit dans le calcul de la variance. Un tel outil est utilise, par exemple avec des cartes de 
Kohonen, pour mesurer la qualite de la quantification respectant les structures de voisinage. Si on suppose que 
le vecteur parametre est dans un compact d'un espace euclidien et que toutes ses composantes sont separees par 
une distance minimale, on montre la consistance forte de I'ensemble des parametres assez proches du minimum 
de variance etendue. Pour citer cet article : 



1. Introduction 



Nous considerons une generalisation de la variance intra-classe qui est consideree comme le principal 
critere de mesure de qualite des cartes de Kohonen (cf Kohonen [4]), bien que I'algorithme de Kohonen 
ne minimise pas exactement ce critere (cf Cottrell et al. [1]). La variance etendue est la somme de la 
variance intra-classe et d'un terme qui depend des classes voisines. Sa minimisation permet notamment 
d'obtenir une classification qui respecte les relations de voisinage et qui donne Heu a des interpretations 
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aisees, puisque la proximite des classes correspond a la proximite des donnees reelles representees par ces 
classes. 

Nous considerons dans toute la suite que les observations i.i.d. sont dans le compact [0, 1]'', qu'elles ont 
pour mesure de probabilite P qui admet une densite par rapport a la mesure de Lebesque, bornee par 
une constante B. Dans la suite, on appelera "centroi'de" un vecteur de [0, 1]'' qui represente une classe 
d'observations oj. 

Definition 1.1 Pour e €N*,e < d, soit un ensemble fini 1 dlf et K la fonction de voisinage definie de 
I - I := {i- G /} dans [0,1] telle que A{k) = A{-k) et A{0) = 1. 
Definition 1.2 Notons ||.|| la norme euclidienne, soit 

Dj := |a; := {xi)-^j € ^[0, IJ'^j tels que \\xi — Xj\\ > 6, si i ^ j| 

I'ensemble des centro'ides Xi separes par une distance d'au moins 5. 
Definition 1.3 La tessellation de Voronoi {Ci{x))^^j est definie par 

Ci{x) := e [0, 1]"^ tels que \\xi — < \\xj — si j ^ i| 

En cas d'ex-aequo, on assigns lu G Ci{x) grace a I'ordre lexicographique sur I. On remarquera alors que 
{Ci{x))^^j est une partition borelienne dont I'interieur coincide avec la mosaique de Voronoi ouverte. 
Reciproquement, I'indice de la tesselation de Voronoi' pour une observation u) est definie par 

C~^{io) := i G I tel que u G Ci{x) 

Definition 1.4 La variance etendue est : V{x) := \ J^ijei ~ j) Ic (x) \\^:> ~ o^\\^dP{oj) 

De meme, lorsqu'il y a un nombre fini n d'observations, on definit la variance etendue empirique : 

Si une observation se trouve sur un hyperplan mediateur entre deux centroides, tout deplacement d'un de 
ces deux centroides entrainera un saut de la variance etendue a moins que la mesure de cette observation 
ne soit nulle (par exemple, si la mesure ne charge pas les traces d'hyperplan). La fonction de variance 
etendue empirique Vnix) n'est done pas continue et il n'existe pas, en general, d'ensemble de centroides 
realisant son minimum. Cependant, si on considcrc les suites x" telles que soit sufRsamment proche 

de son minimum, on pent se demander si ces suites convergent vers I'ensemble des centroides minimisant 
la variance theorique V{x). Pour cela, nous procedons selon le m6me schema de demonstration que Pollard 
[5] et nous commengons par montrer que les fonctions de variance etendue verifient une loi uniforme des 
grands nombres. 



2. Loi uniforme des grands nombres 

Soit la famille de fonctions 

g := jff.H g A (C-^H - j) \\xj - uf pour x G Oj 
Pour montrer la loi uniforme des grands nombres, il sufEt de montrer que 



sup 



J gx{ijJi)dPn{ijj) - j gx{oj)dP{ijj) 



p. I 



(1) 



puisque, pour toute mesure de probabilite Q sur [0, 1]** : 



d'apres Gaenssler et Stute [3], une condition sufRsante pour que I'equation (1) soit verifiee est que : 
Ve > 0,Va;o S .Df il existe un voisinage S{xq) de xq tel que 

g^„{u})dP{u) - e < / ( inf g^{uj)] dP{u) < / sup g^{uj)] dP{oj) < g^„{oj)dP{uj) + e 
J J \xeS{xo) J J \xeS(xo) ) J 

On pent d'abord prouver le resultat suivant, en utilisant une technique similaire a la preuve du lemme 
11 de Fort et Pages [2]. 

Lemme 2.1 Soit x G et A la mesure de Lebesgue sur [0, l]''. Notons E" le complementaire de I'en- 

semble E dans [0, 1]'^ et \I\ le cardinal de I'ensemble I. Pour < a < |, soit 

I/f (x) = e [0, l]V3y e Dj, xj = yj sijj^i et \\xi -yi\\<aetu;e Cf{y) n Ci{x)} 

I'ensemble des u) changeant de cellule de Voronoi lorsque le centroide Xi se deplace d'une distance d'au 

plus a. Alors 



sup,^j,s\{Ur{x)) < (|/| - 1) +") (V2) 



d-1 



Considerons maintcnant € I?| et S{x^) un voisinage de x^ inclus dans une boule de rayon a, pour 
la distance euclidienne sur . Soit W{x'^) I'ensemble des w restant dans leur cellule de Voronoi' lorsque 
on deplace x^ vers n'importe quel x G S{xo)- Pour tout w G W{x^) on a 



mf ,.H>,.oH-^A(c-H-,)(lk° ~„ ^^^^ 

>g^o{Lj)-y(\\x''-uf- inf \\x°-u;\\A 



■ivf- inf ll:c°-a;l| 



Pour tout CO G [0, 1]'', on a, pour a sufEsamment petit, (||x° — — 'm{xQS{x°) W^j — < 2B\i\ ^^'^^^ 

Wix") W{x°) 

Soit, maintenant W{x^Y, I'ensemble des w changeant de cellule de Voronoi quand les centroi'des vont 
de x'^ vers un a; € S^o . Si a < , alors en deplagant sequentiellement les composantes x^ de x'^ vers Xi 

- 

de X, chaque configuration intcrmcdairc reste dans Dj . Comme, pour tout i G I, \[Xi — a;|| est borne par 
1 sur [0, 1]'', le lemme 2.1, assure alors que 



j gA^)dP{w) < B\I\{\I\ - 1)) + «) (^/2)' ' 



Wix")' 



Finalement, si on choisit a suffisamment petit pour que B|7|(|/| — 1)) + a) [V^)'^ ^ < |, on obtient 
j g^o{u)dP{Lo) - e < J (^Jnf^^^g^{co)j dP{uj) 



Exactement de la m6me fagon, pour a sufEsamment petit, on obtient : 



/ sup dP{w) < I g^o{u!)dP{uj) +; 

J \xeS{x°) I J 



Ainsi, la condition suffisante pour la loi uniforme des grands nombres est vraie pour la variance etendue. 
3. Consistance 

On veut montrer la consistance des centroi'des qui minimisent "presque" la variance etendue dans Dj. 
Soit I'ensemble des "quasi-estimateurs" de minimum de variance etendue : 

xi:=\xeDj tels que Vn{x) < inf Vn{x) + I 
[ xeDj p{n) J 

avec /3(n) une fonction strictement positive tel que lim„^+oo /3(n) = oo. Soit % = aigmm^^j^s V{x) 
I'cnsomblc qui minimise la variance etendue theorique, comme la fonction x i — > V {x) est continue et non 
constante sur Dj, pour tout voisinage M de x, il existe t] {Af) > tel que 

Vx G Dl\Af, V {x) > min V (x) + t] (Af) 
xeDj 

Pour montrer la consistance forte, il sufRt de montrer que pour tout voisinage de x on a 
lim xi C limV (x^) - V (x) <" V {^f ) 

n—*oo n — >-oo 

avec V{E)-V (F) := sup {V (x) - V (y) pour xe E et y e F}. 

Par definition Vn (Xn) ^ (x) + /j^; de plus la loi uniforme des grands nombres assure que 

lim„^oo (x) — V ix) 0, on obtient ainsi lim„^oo (Xn) < ^ (x) + de meme on aura 

lim„^oo V {xO - K (x© et 

lim V ixi) - ^ lim K ixi) <■ ^ (X) + ^ 

n— »oo ^ ' 2 n— >oo 2 

finalement lim„^oo V (Xn) ~ ^ (x) ^ (■^) ce qui prouve la consistance forte du quasi-estimateur de 
minimum de variance etendue. 
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